图 二 情 设 三 作 


第 63 卷 第 11 期 2019 年 6 月 


发 文 趋势 与 引文 趋势 融合 的 学 科研 究 主题 优先 
级 排序 


以 我 国情 报 学 学 科 主 题 为 例 


目 李 秀 霞 。” 程 结晶 韩 霞 


! 曲阜 师范 大 学 传媒 学 院 日 照 276826 “扬州 大 学 社会 发 展 学 院 ”扬州 225008 


摘要 : [目的 /意义 ] 主 题 排 序 不仅 是 信息 检索 、 信 息 组 织 研究 的 基础 性 问题 ,也 是 图 书馆 学 科 服 务 的 重要 
工作 ,对 学 科 领 域 研究 主题 进行 有 效 排序 能 够 帮助 科研 人 员 和 科研 管理 部 门 有 效 把 握 学 科 领 域 的 研究 态势 , 准 
确定 位 科研 方向 ,快速 做 出 科研 决策 。 [方法 /过 程 ] 基 于 趋势 分 析 提 出 一 种 学 科研 究 主题 优先 级 排序 算法 。 首 
先 ,在 主题 提取 的 基础 上 ,根据 发 文 趋势 和 引文 趋势 将 每 个 研究 主题 按 研究 等 级 分 为 贫乏 主题 热点 主题 、 冷 点 
主题 过热 主题 4 个 子 类 。 然 后 ,分 别 对 各 子 类 下 的 主题 词 进行 优先 级 排序 。[ 结果 /结论 ] 在 情报 学 领域 的 实 
圳 明明 ;本文 提 出 的 优先 级 排序 算法 能 够 全 方位 、 细 粒度 、 深 层次 地 展示 学 科 领 域 研究 主题 的 发 展 等 级 ,该 方法 
哥 汶 从 时 间 维 度 实现 动态 情报 分 析 提 供 新 的 视角 。 
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出 的 研究 主题 排序 算法 对 我 国情 报 学 研究 主题 进行 优 
2 和 分 > DA 公心; 各 全 > 以 2 术 
随 帮 学科 研究 的 深入 和 医学 科研 究 的 拓展 ,学 术 。 先 级 排序 ,为 本 学 科 科 研 管理 人 员 制 定 科研 规划 、 研 究 


奖 页 中 爆炸 式 增长 态势 , 研 究 主题 不 断 演化 更 新 。 商 。 人 员 进 行 科 研 选 题 等 提供 有 效 可靠 的 决策 参考 。 
对 牢 题 多 样 的 海量 文献 资源 ,如 何 迅速 .准确 地 掌握 学 

科 和 研究 主题 的 发 展 等 级 ,确定 科研 选 题 方向 ,成 为 科学 
研究 者 面临 的 巨大 挑战 ”。 目 前 ,不 少 学 者 以 文献 篇 ”2.1 基于 文献 计量 学 的 主题 识别 

章 为 基本 单元 ,通过 文献 排序 提供 信息 服务 .指导 科研 这 类 研究 包括 词 频 分 析 " 、 共 词 分 析 '" 、 共 词 聚 类 


~、 
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工作 *“ ,文献 排序 虽然 能 够 给 出 学 科 领 域 有 价值 的 。 分 析 中 等 ,上 述 方法 实质 上 都 是 以 高 频 关键 词 为 基础 ， 
文献 .权威 作者 等 信息 ,但 面 对 学 科研 究 的 不 断 深入 与 。 ”识别 文献 秘 的 研究 主题 ,进而 发 现 学 科 领 域 的 研究 热 
拓展 ,这 种 信息 服务 远 远 不 够 。 由 此 ,本 研究 基于 趋势 。 点 。 关 键 词 是 文献 研究 主题 研究 内 容 .研究 方法 的 高 
分 析 提 出 一 种 学 科 主 题 优 先 级 排序 方法 ,对 文献 内 容 上 度 概 括 与 凝练 ,反映 文献 研究 的 逻辑 关系 或 创新 突破 
进行 深入 挖 据 , 为 科研 人 员 提 供 层次 更 深 、 细 粒度 更 高 点 ;高 频 关键 词 则 代表 着 一 个 学 科 领 域 的 热点 主题 和 
的 信息 服务 ” 。 前 治 方向 ,频次 越 高 的 关键 词 得 到 的 研究 关注 度 就 越 

本 研究 的 主要 目标 是 :中 给 出 相对 引文 量 . 引 文 趋 ”高 ,通常 构成 研究 热点 ”。 因 此 可 通过 统计 和 分 析 关 
势 发 文 趋势 的 定义 ,为 从 时 间 维 度 动态 分 析 学 科研 究 。” 键 词 在 文献 中 出 现 的 频次 高 低 来 确定 学 科 领 域 的 研究 
主题 的 发 展演 化 提供 理论 基础 ;@ 在 趋势 分 析 的 基础 ” 热点 和 发 展 趋势 。 基 于 文献 计量 学 的 主题 识别 因 技 术 
上 ,给 出 学 科研 究 主题 优先 级 排序 方法 ,为 发 现 学 科 领 ” 方法 具有 和 较 强 的 通用 型 分析 工具 简单 易 用 而 被 广泛 
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应 用 于 学 科 领 域 研究 热点 识别 和 研究 结构 分 析 中 。 不 
足 在 于 关键 词 的 选取 主观 性 强 .关键 词 之 间 缺 乏 语义 
关系 、 会 遗漏 频次 较 低 且 代表 新 兴 研 究 主题 的 关键 词 
等 ,致使 这 类 方法 在 揭示 领域 知识 结构 时 效果 不 够 理 
相 [91 
2.2 ”基于 机 器 学 习 的 主题 挖掘 

主题 挖掘 源 于 G. Salton 等 "于 1975 年 提出 的 向 
量 空间 模型 (Vector Space Model ,VSM ) ,VSM 将 文本 
表达 成 几何 空间 中 的 向 量 ,为 计算 文本 之 间 的 相似 度 、 
确定 关键 词 与 文本 的 关系 提供 了 便利 。1990 年 S.C. 
Deerwester 等 5 提出 的 潜在 语义 分 析 (Latent Semantic 
Analysis ,LSA) 模型 首次 成 功 地 将 “语义 "引入 文本 主 
题 挖掘 。1999 年 ,T，Hofmann5 运用 期 望 最 大 化 算法 
提 则 了 基于 概率 统计 的 PLSA (Probabilistic Latent Se- 
ma 证 c Analysis) 模 型 ,将 机 器 学 习 纳入 文本 主题 提取 。 
2Q93) 年 ,D. M. Blei 等 ”在 PLSA 的 基础 上 ,把 先 验 概 
莹 缠 入 隐 含 语义 分 析 中 ,提出 潜在 狄 利克 雷 分 配 (La- 
ten , irichlet Allocation ,LDA ) 模型 。LDA 模型 假设 词 
是 由 一 个 个 主题 混合 产生 ,同时 每 个 主题 是 在 固定 词 


gy 


DEEShlet 分 布 中 抽样 产生 。 在 实际 应 用 中 ,只 要 确定 


目前 ,LDA 模型 已 成 为 广泛 使 用 的 一 种 主题 挖 据 模 型 ， 
入 和 生出 一 系列 的 主题 挖 据 方法 "“-” 。 相 比 基 于 文 
献 详 量 分 析 的 主题 识别 ,基于 机 器 学 习 的 主题 挖 据 不 
仅 在 主题 识别 中 能 够 挖掘 出 更 多 ,更 全 面 的 内 容 ,内 容 
捕 通 更 具体 、 明 确 “"” ,而 且 主题 内 关键 词 的 语义 联 
系 更 为 紧密 ,对 语义 关系 模糊 、 逻 辑 结构 粗糙 的 文献 ， 
挖 气 正 确 主题 的 效果 更 理想 ” 。 
2.3 ”基于 机 器 学 习 的 主题 排序 

基于 机 器 学 习 的 主题 排序 是 在 主题 识别 的 基础 
上 ,通过 构建 排序 模型 ,计算 主题 的 相关 度 对 其 进行 排 
序 ,目前 已 被 应 用 于 文档 检索 .协同 过 滤 专家 搜索 . 情 
感 分 析 、 产 品评 级 等 。 也 有 对 新 闻 主题 .社交 媒体 主题 
的 排序 研究 ,如 C. H. Wang 等 “采用 媒体 聚焦 和 用 户 
注意 力 的 方式 对 主题 排序 ; 姜 晓 伟 等 ”根据 微 博 话题 
的 影响 力 、 突 发 性 和 相关 性 ,结合 LDA 主题 模型 实现 
了 对 微 博 重要 话题 的 发 现 与 排序 , 刘 培 玉 等 ”对 微 博 
文本 和 主题 词 的 热度 进行 联合 排序 ,用 于 微 博 热点 主 
题词 的 抽取 以 及 热点 话题 的 发 现 。 对 学 科 主 题 排序 的 
研究 相对 较 少 ,代表 性 的 研究 有 :W，Cui 等 中 借助 信 
息 检索 与 数据 挖 气 中 常用 的 TF-IDF 加 权 技术 ,提出 利 


有 TF-IDF 对 主题 词 排序 ,该 方法 对 于 词语 比较 少 的 情 
况 效果 较 好 ,但 面 对 高 维 数据 集 则 显得 力不从心 。 之 
后 ,出 现 了 一 些 主 题 排序 模型 ,解决 了 高 维 数据 主题 排 
序 的 问题 ,如 省 智博 号 提出 一 种 基于 关联 关系 的 主题 
排序 模型 算法 ,该 算法 利用 主题 之 间 的 各 种 关联 关系 ， 
依照 主题 的 重要 性 程度 排序 。 后 来 , 肖 智 博 与 他 的 学 
生 25 研 发 了 一 种 基于 排序 主题 模型 的 论文 推荐 系统 。 
另 有 学 者 借鉴 网 页 排序 的 PageRank 算法 实现 对 科技 
主题 的 排序 ,如 薪 卓 人 等 ”借助 PageRank 算法 对 中 英 
文科 技 主 题 的 重要 性 进行 了 度量 和 排序 ,由 于 PageR- 
ank 算法 是 基于 链接 分 析 的 ,不 能 很 好 的 基于 主题 查 
询 , 因 此 计算 结果 往往 会 偏离 实际 的 查询 主题 。 

对 学 科 领 域 研究 主题 进行 有 效 排序 能 够 帮助 科研 
人 员 和 科研 管理 部 门 有 效 把 握 学 科 领 域 的 研究 态势 、 
准确 定位 科研 方向 .快速 做 出 科研 决策 ,意义 重大 ,应 
用 广泛 。 但 目前 基于 算法 模型 对 学 科研 究 主 题 的 排序 
研究 主要 是 在 文本 挖掘 的 基础 上 ,根据 主题 词 出 现 的 
频次 或 主题 词 间 的 关联 性 实现 主题 排序 ,尚未 发 现 有 
考虑 用 户 需 求 因素 的 相关 研究 。 为 此 ,本 文 在 前 人 研 
究 的 基础 上 ,将 文献 计量 和 主题 挖掘 两 种 方法 相 结 合 ， 
从 读者 和 研究 人 员 两 个 视角 、 通 过 发 文 趋势 和 引文 趋 
势 两 个 维度 实现 对 学 科研 究 主题 的 合理 排序 。 


3 ”研究 步骤 与 研究 方法 


3.1 主题 提取 与 主题 数目 确定 

主题 提取 即 提取 学 科 领 域 学 术 文献 的 研究 主题 。 
一 般 而 言 ,学 术 文献 的 标题 能 够 提供 文献 的 核心 问题 ， 
如 研究 内 容 、 研 究 方法 、 研 究 目 标 等 ;关键 词 则 是 对 文 
献 核心 内 容 的 高 度 概 括 。 如 前 所 述 ,LDA 模型 具有 良 
好 的 文本 潜在 主题 挖掘 能 力 ,能够 识别 大 规模 文档 集 
或 语料库 中 潜藏 的 主题 信息 ,目前 已 被 应 用 于 主题 
抽取 热点 挖掘 文本 分 类 ,用户 推 荐 等 领域 。 因 此 ,本 
文 确定 采用 LDA 模型 ,从 文献 标题 和 关键 词 中 提取 学 
科 领 域 学 术 文 献 的 研究 主题 。 

在 学 科 文 献 主 题 提取 中 ,主题 数目 的 确定 至 关 重 
要 ,主题 数目 过 少 不 能 涵盖 学 科 领 域 的 研究 全 貌 ,过 多 
则 会 出 现 重 复 分 析 的 现象 ;而 根据 作者 或 专家 建议 确 
定 主题 数目 又 带 有 主观 性 的 次 端 。 因 此 ,本 文 利用 所 
有 主题 之 间 的 平均 相似 度 来 度量 主题 结构 的 稳定 性 ， 
平均 余弦 值 在 1 和 0 之 间 , 主 题 之 间 的 平均 相似 度 越 
小 ,对 应 的 主题 结构 越 优 | 。 
3.2 主题 词 引文 等 级 确定 

为 便于 描述 ,针对 某 一 学 科 做 如 下 假设 : 设 用 
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FA 


个 主题 ,其 中 任 一 主题 m 含 个 主题 词 , 某 年 对 应 某 一 
主题 词 共 用 篇 论文 。 

首先 ,统计 某 年 某 个 主题 词 的 相对 引文 量 R; 然 
后 ,计算 学 科 领 域 某 年 所 有 主题 词 上 的 相对 引文 量 
7c; 再 根据 Ro 7 的 值 计 算 样 本 标准 差 d; 最 后 ,确定 
某 年 第 j(j =1,2,…, 记 ) 个 主题 词 的 引文 等 级 om。 其 
中 


YC, +1 

Ro 公式 (1) 

Ru 表示 某 年 第 JJ =1,2,… ,有 ) 个 主题 词 对 应 文献 

的 所 有 引文 量 与 同年 该 主题 词 对 应 的 所 有 文献 量 之 

比 。 式 中 C; 代表 第 i(i=1,2,… ,NN) 篇 文献 的 引文 量 。 

为 避免 发 文 量 或 引文 量 为 0 时 无 法 计算 ,分 子 分 母 同 
时 各 1。 


公式 (2) 


主题 词 每 个 时 间 段 的 发 文 量 用 向 量 及 表示 ,万 = (4， 
1, ,1 )o 

对 各 主题 词 的 发 文 量 向 量 已 与 时 间 向 量 了 进行 
Spearman 相关 分 析 , 得 到 各 主题 词 与 发 文 时 间 的 
Spearman 相关 系数 Li。Spearman 相关 系数 反映 了 已 
和 发 文 时 间 了 的 相关 方向 。 思 为 正 ,说 明 当 了 增加 时 ， 
已 有 增加 的 趋势 ;7 为 负 , 说 明了 增加 时 ,六 有 减少 的 
趋势 ;L 为 零 ,表明 上 ,没有 任何 变化 趋向 性 。 相 关系 
数 态 的 大 小 反映 了 研究 人 员 对 各 主题 词 的 研究 递增 
或 递减 趋势 ,以 此 记 为 各 主题 词 的 发 文 趋势。 
3.4 ”主题 词 优先 级 排序 
3.4.1 主题 词 优先 级 划分 “根据 相对 引文 量 .发 文 趋 
势 .引文 趋 势 的 定义 ,计算 学 科 领 域 研究 主题 对 应 主题 
词 的 发 文 趋势 Li .引文 趋势 06。 根 据 Ly 与 0 的 不 同 
取 值 ,将 研究 主题 细 分 为 4 类 子 主题 ,各 类 子 主题 分 别 
代表 着 不 同 的 研究 等 级 。 分 类 标准 如 下 :中 当 一 个 主 
题词 对 应 的 发 文 趋势 降低 .引文 趋势 增加 时 ,说明 需 求 


宁 7 表示 某 年 所 有 主题 词 对 应 文献 的 引文 量 与 该 
急 幸 题 赂 下 所 有 主题 词 对 应 的 文献 量 之 比 。 式 中 书 
击 第 1 个 主题 词 的 第 站 篇 文献 ,C, 表 示 第 / 个 主题 记 


表示 
的 绩 i 篇 文献 的 引文 量 。 


公式 (3) 
><d 表示 某 年 上 个 主题 词 的 样本 标准 差 。 
( R,-7 

=( 5] 公式 (4) 


三 g, 表示 某 年 第 j 个 主题 词 的 引文 等 级 ,n 代表 时 间 
段 (n =1,2,…) ,各 主题 词 每 年 都 有 一 个 引文 等 级 。 
3.3 ”主题 词 引文 趋势 发 文 趋势 

根据 主题 词 的 引文 等 级 ,构建 各 主题 词 ”个 时 间 
段 的 引文 等 级 向 量 , 即 0, = (mW ,qs，,…,4,; 各 主题 词 
均 对 应 相同 的 时 间 向 量 , 即 了 = (7 7 ，…, 7 )。 

对 各 主题 词 引文 等 级 向 量 0, 与 时 间 向 量 了 进行 
Spearman 相关 分 析 , 得 到 各 主题 词 相 对 时 间 的 
Spearman 相关 系数 Ow。Spearman 相关 系数 表明 了 引 
文 等 级 向 量 O, 和 引文 时 间 了 的 相关 方向 。 如 果 了 了 增 
加 ,0; 趋 向 于 增加 , 则 0 为 正 ;如 果 了 增加 ,0; 趋 向 于 
减少 , 则 0 为 负 ;04 为 零 则 表明 当 了 增加 时 0, 没 有 任 
何 趋向 性 。@w 的 大 小 反映 了 读者 对 各 主题 词 的 需求 
增长 或 减少 的 趋势 ,以 此 记 为 各 主题 词 的 引文 趋势。 

统计 每 个 主题 词 不 同时 间 段 的 发 文 量 ,以 “时 间 ” 
为 行 .以 “主题 词 "为 列 构建 “发 文 量 - 时 间 ” 和 矩阵 ,各 
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量 大 于 供给 量 , 相 关 研 究 处 于 贫乏 状态 ,急需 增加 研究 
量 。 因 此 ,界定 这 一 类 主题 词 属于 研究 贫乏 的 主题 词 ， 
对 这 种 主题 词 的 相关 研究 急需 给 予 引导 和 支持 ,研究 
级 别 最 高 。 书 当 一 个 主题 词 对 应 的 发 文 趋势 和 引文 趋 
势 均 递 增 时 ,说 明 需 求 量 相对 快速 增加 时 ,供应 量 也 在 
高 速递 增 ,属于 学 科 领 域 的 热点 主题 词 ,对 该 类 主题 词 
的 研究 能 够 满足 需求 ,因此 ,研究 级 别 应 低 于 贫乏 区 的 
主题 词 。(3) 当 一 个 主题 词 对 应 的 发 文 趋势 和 引文 趋势 
均 递 减 时 ,说 明 对 该 研究 主题 的 需求 量 和 供给 量 都 较 
低 , 属 于 冷 点 研究 主题 词 。 相 对 需求 较 低 的 主题 词 ,不 
需要 给 予 过 多 支持 , 故 研 究 级 别 又 低 于 热点 主题 词 。 
由 当 一 个 主题 词 对 应 的 发 文 趋势 增加 ,引文 趋势 降低 
时 ,供给 量 大 于 需求 量 ,说 明 对 该 主题 词 的 研究 增幅 相 
对 较 快 ,呈现 研究 过 热 的 势头 。 因 此 ,对 该 类 主题 词 的 
研究 应 该 进行 适当 控制 , 故 研究 级 别 最 低 。 具 体 表示 
为 : 


Ln <0,Qwn>0,((D 类 ,贫乏 主题 ) 

Ly >0,Qwn>0,( 书 类 ,热点 主题 ) 

jn<0,0s<0,(@ 类 , 冷 点 主题 ) 

Ln >0,Qwn <0,( 世 类 ,过 热 主题 ) 
3.4.2 子 主题 排序 通过 对 发 文 趋势 Li 和 引文 趋势 
Q5 的 运算 实现 各 类 子 主题 下 主题 词 的 优先 级 排序 。 
排序 依据 自 定义 运算 关系 7 = Li 〇 Qn 进行 ,”QE” 是 
一 种 自 定义 运算 符 ” ,应 用 时 需 根 据 数据 的 不 同 分 布 
村 点 自行 定义 Ly 与 Pw 之 间 的 运算 关系 。 


公式 (5) 


李 秀 人 起， 程 结晶 ， 韩 霞 .发文 趋势 与 引文 趋势 融合 的 学 科研 究 主题 优先 级 排序 
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4 实验 与 效果 评价 
4.1 数据 来 源 
本 文 数据 选 自 中 文 社会 科学 引文 索引 (CSSCI) 收 


录 的 来 源 期 刊 。CSSCI 期 刊 是 目前 我 国 社会 科学 各 学 
科 领 域 具 有 较 高 学 术 水 平 的 期 刊 ,刊载 在 这 些 期 刊 上 
的 文献 基本 涵盖 了 各 学 科 领 域 的 研究 主题 。 其 中 ,“ 图 
书馆 .情报 与 文献 学 "期 刊 有 20 种 ,20 种 期 刊 中 情报 
学 期 刊 ( 含 图 书馆 学 与 情报 学 两 栖 期 刊 ) 有 10 种, 分别 
是 《情报 学 报 》《 图 书 情报 工作 》《 情 报 杂 志 》《 图 书 情 
报 知识 《情报 资料 工作 》《 数 据 分 析 与 知识 发 现 )《 情 
报 理论 与 实践 》《 情 报 科 学 》《 图 书 与 情报 》《 现 代 情 
报 》。 为 同时 获取 上 述 期 刊 的 提名 和 关键 词 以 备 后 面 
的 主题 提取 ,笔者 以 中 国 知 网 (CNKI) 为 来 源 数据 库 
对 沁 述 10 种 情报 学 期 刊 文献 进行 全 面 检索 。 检 索 时 
范围 为 2013 年 6 月 至 2018 年 5 月 , 共 检 索 到 13 559 

献 ,剔除 其 中 的 会 议 通 知 `. 下 期 目录 、 征 稿 通知 等 
ER 数据 ,得 到 有 效 文献 12 377 篇 。 下 载 这 些 文献 的 
题 夺 . 关 键 词 等 信息 作为 实验 数据 。 
462S 我 国情 报 学 研究 主题 数目 确定 及 主题 提取 
CD 利用 LDA 模型 进行 主题 提取 之 前 , 需 对 数据 进行 
也 古 理 。 首 先 ,笔者 使 用 中 国 科学 院 计算 技术 研究 所 
油分 词 系统 NLPIR (又 名 ICTCLAS) 对 样本 数据 进 
行 锥 词 处 理 ;然后 ,使 用 词性 过 滤 和 停 用 词 过 滤 方 法 对 
与 建 模 无 关 的 词语 进行 过 滤 , 得 到 实验 所 需 的 文本 语 
料 硅 。 

.三 选取 不 同 的 主题 数目 ,计算 主题 间 的 平均 相似 度 ， 
发 现 当 主题 数 为 10 时 ,主题 间 的 平均 相似 度 最 小 , 主 
题 蔚 构 最 稳定 ,具体 如 图 1 所 示 : 
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1 我 国情 报 学 主题 数目 与 主题 间 平 均 
余弦 相似 度 关 系 曲 线 


利用 开源 包 JGibbLDA'”1 对 数据 进行 LDA 主题 建 
模 , 设 置 主题 数 为 10, 和 seita 分 别 设置 为 0.1 和 
0.02 ,提取 主题 。 根 据 LDA 模型 生成 的 各 研究 主题 列 
表 中 的 主题 词 ,并 依据 笔者 对 学 科 领 域 研究 主题 的 把 


握 ,由 人 工 确定 10 个 研究 主题 的 标签 ,主题 标签 见 表 
1 
4.3 10 个 研究 主题 下 各 子 类 主题 优先 级 划分 
为 了 与 上 文 数据 保持 一 致 ,选用 CNKI 数据 库 文 
献 分 类 目录 中 “信息 科技 ”类 目下 的 “情报 学 、 情 报 工 
作 ”。 通 过 “更 多 ”选择 “指数 ”"。 首 先 ,对 上 述 各 类 主 
题 下 的 主题 词 进行 简单 的 合并 处 理 , 如 ”比较 分 析 ”与 
“对 比分 析 ” “网络 与 情 ”“ 网络 熏 论 ”与 “网 络 与 论 传 
播 "”, “开放 政府 数据 ”与 “政府 开放 数据 “满意 度 ” 与 
“用 户 满意 度 ”, “可视化 ”与 “可 视 化 分 析 ”,“ 评 价 指标 
体系 ”与 “指标 体系 ”等 的 合并 。 然 后 ,将 处 理 后 的 主 
题词 逐一 输入 ,依次 检索 并 记录 各 主题 词 每 年 对 应 的 
“学 术 关 注 度 ”( 即 发 文 量 ) 和 “学 术 传 播 度 ”( 即 引 文 
量 ) 。 结 合 主题 提取 时 样本 数据 检索 时 间 (2013 年 6 
月 至 2018 年 5 月 ) ,考虑 引文 相对 发 文 的 时 滞 性 , 设 定 
发 文 时 间 为 2013 年 6 月 至 2017 年 5 月 ,引文 时 间 设 定 
为 2014 年 6 月 至 2018 年 5 月 。 根据 3.2 节 .3.3 节 给 
出 的 相对 引文 量 .发文 趋势 .引文 趋势 的 定义 ,计算 各 
类 主题 词 的 发 文 趋势 Cuw 引文 趋势 0;;。 根 据 Li 的 不 
同 取 值 ,按照 3.4 节 给 出 的 子 主题 分 类 方法 将 各 研究 
主题 下 的 主题 词 分 为 贫乏 主题 .热点 主题 , 冷 点 主题 、 
过 热 主 题 等 4 个子 类 (部 分 研究 主题 分 为 3 个 子 类 ) ， 
分 类 结果 见 表 1。 
4.4 10 个 研究 主题 下 各 子 类 主题 的 主题 词 排序 
利用 上 文 给 出 的 研究 主题 优先 级 自 定 义 排 序 算 
法 ,分 别 对 不 同 研 究 主题 下 各 子 类 的 主题 词 进 行 优先 
级 排序 。 分 析 各 子 类 主题 词 的 发 文 趋势 Li 、 引 文 趋势 
Qw 特 点 :有 的 主题 词 对 应 的 0 与 Ly 呈 负 相关 ,有 的 主 
题词 对 应 的 Q% 与 呈正 相关 ;另外 ,引文 趋势 0 多 聚 
集 在 ( -1, -0.7) 以 及 (0.7,1) 范 围 ,最 大 值 与 最 小 值 差 
距 较 大 。 同 时 ,为 使 4 个 子 类 的 7 值 的 大 小 排序 与 其 优 
先 级 高 低 变 化 保持 一 致 ,并 确保 所 有 主题 词 的 7 值 为 
正 , 经 反复 实验 ,本 文 设计 以 下 的 优先 级 排序 算法 : 
r=13Q4 -Ly +14,(Qw 与 上 wy 变化 趋势 相 反 时 ) 
| =20Qn 一 Ly +14,( Qi 与 Ly 变 化 趋势 相同 时 ) 
公式 (6) 
按照 上 述 自 定义 算法 ,计算 各 子 类 主题 下 每 个 主 
题词 的 7 值 ,结果 见 表 1。 
4.5 效果 评估 
由 于 目前 没有 公认 的 关于 学 科 主 题 排序 的 评 佑 方 
法 ,更 未 发 现 对 我 国情 报 学 研究 主题 的 排序 研究 ,本 文 
选取 排序 结果 合理 性 分 析 、 对 比 实验 分 析 两 种 方法 来 
评估 排序 效果 。 


91 


图 二 情报 三 作 


第 63 卷 第 11 期 2019 年 6 月 


ChinaXiv 合 作 期 刊 


表 1 基于 趋势 分 析 的 情报 学 研究 主题 优先 级 排序 


放 数 据 ” 为 例 ,分 析 排 序 结 果 的 合理 性 。 

该 类 主题 下 的 第 中 子 类 含 4 个 主题 词 ,代表 着 用 
户 对 信息 服务 的 体验 知识 管理 平台 的 建设 两 个 子 方 
向 。 目 前 ,信息 服务 ,知识 管理 的 相关 研究 理论 已 近 完 
善 ,缺乏 创新 的 发 展 途径 和 理念 ,因此 ,发 文 量 呈 逐年 
递减 趋势 。 但 在 崇尚 虚拟 现实 环境 .倡导 “以 人 为 本 ” 
理念 的 时 代 , 人 们 越 来 越 关注 用 户 体验 ,对 图 书馆 服务 
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topicOth topiclth opic 2th : Ss opic 3th: 人 了 Topic 4th : 
了 类 ”信和 全 则 3 值 了 类 信息 服务 值 。 了 类 网络 册 情 5 值 。 子 类 。 网 络 资源 值 。 子 关 。 专利 信息 5 介 
QO 类 ”科技 查 新 25.0519 类 ”电子 资源 25.6353 ”类 网 络 环境 26.1956 类 ”领域 本 体 26.4256 ”类 ”专利 分 析 26. 252 5 
行为 研究 24.590 3 户 需 求 19.426 4 图 书馆 联盟 26.160 6 个 性 化 26.283 7 信息 共享 26.207 1 
理论 基础 24.345 9 利用 率 16.3249 微 博 僵 情 25.252 4 信息 资源 25.359 8 专利 申请 25. 946 8 
比较 分 析 20.6664 ” 回 类 MOOC 15.1133 网 络 平台 24.6916 知识 组 织 23. 865 7 理论 基础 24. 084 1 
信息 管理 15.845 2 民 务 模 式 14.2946 信息 需求 21. 951 科技 文献 21. 808 2 专利 权 人 22. 891 4 
学 科 馆 员 15.448 4 创 客 空间 14.273 9 ”@@ 类 网 络 与 情 15.145 2 智能 化 20. 057 4 知识 共享 21. 42 
@ 类 ”内 容 分 析 法 14.570 2 全 民 阅 读 13.996 6 传播 规律 15.763 4 网 络 信息 16. 320 4 专利 文献 19.707 9 
享 13.345  @ 类 文献 资源 12.558 系统 动力 学 15. 26 网 络 资源 15. 609 知识 产权 19. 686 4 
13.0708 ” 团 类 民 务 能 力 11.701 5 与 情 传播 14.725 7 网 络 社区 14.365 8 专利 信息 19. 108 8 
11.6569 阅读 推广 11.7015 奥 情 事件 14.5475 ”加 类 文本 挖掘 14.977 4 专利 数据 43 
11.271 4 及 务 体系 7.352 98 大 数据 14.326 6 模型 构建 14. 128 4 隐 性 知识 16. 8166 
9.951 7 博物 馆 5.102 51 大 数据 技术 14.252 3 资源 整合 14.0899 ”@ 类 核心 专利 15. 191 1 
9.463 48 区 务 内容 5.095 33 复杂 网 络 14.067 2  @ 类 维基 百科 14.085 5 知识 网 络 14.588 9 
发 展 历程 6.766 79 微 信 公 众 平台 4.095 94 互联 网 14. 054 知识 单元 13.9278 协同 创新 14.3869 
息 素 5.874 6 PDA 3.998 71 网 络 与 情 传播 13.994 9 信息 检索 13.7166 科技 创新 13.709 2 
理论 研究 4.683 19 移动 服务 1.5647 新 媒体 环境 13. 897 8 数字 资源 13.0999  @ 类 ”知识 交流 13.2101 
电子 政务 1. 861 04 @ 类 ”网 络 幅 论 12.6669  @@ 类 ”信息 生态 链 、 13.0535 网 络 结构 13.0448 
新 媒体 11.602 2 知识 协同 13. 001 6 创新 能 力 11.9148 
知识 扩散 10.048 数字 化 8.093 66 合作 关系 11.0434 
Dp 数据 分 析 6.766 22 主题 词 4.365 06 识别 方法 8.123 55 
数据 管理 6. 067 65 情感 分 析 3.393 22 竞争 力 5.933 55 
传播 模式 2.766 24 语料库 3.227 41 关联 性 5.0909 
< 二 博弈 模型 2.210 49 生命 周期 2.9907 科技 报告 4.378 99 
OO) 图 书馆 员 1.952 06 网 络 化 2.789 68 知识 创新 4.351 29 
< 十 情报 服务 1.361 73 结构 化 2.148 04 技术 创新 3.173 29 
© 大 数据 环境 1. 128 12 知识 发 现 1.979 92 社会 网 络 2.409 73 
情报 分 析 0.981 LDA 1.879 57 虚拟 社区 1.428 67 
OO 互联 网 + 0.396 19 机 器 学 习 0.223 62 网 络 分 析 0.304 56 
> 平台 建设 25.226 ”人 @ 类 和 26.909 ”类 ”学 术 期 刊 26.1488 ”类 ”影响 因子 26.686 2 ”中 类 信息 生态 26. 621 3 
CO 信息 服务 23.28 25. 875 开放 存 取 26. 126 核心 期 刊 25. 895 7 搜索 引擎 25.744 5 
CN| 知识 管理 20.982 25.391 6 指数 25.342 3 统计 分 析 21.5576 知识 服务 18.104 8 
用 户 体验 19.5046 21.019 2 学 术 论文 24.5816 ”类 ”期刊 论 文 15.1277 ”类 评价 模型 14.489 6 
名 推荐 系统 15.2513 20.517 2 图 书馆 学 23.1276 数据 库 14.935 2 民 务 创新 14.474 8 
”去 计算 15.069 4 18.7108 文献 调研 21.27 研究 领域 13.9102 信息 生态 链 14.441 6 
移动 图 书馆 14.930 8 18.4018 信息 分 析 17.515 1 被 引 频次 13. 832 4 知识 库 14.290 9 
信息 技术 14.621 息 16.4737 “”@ 类 关联 数据 1 有 数据 源 13. 690 1 者 标 体系 14. 267 3 
对 比分 析 14.3002 ”@ 类 ”社会 化 媒体 15.576 9 科研 人 员 14.898 9 共 词 分 析 13.084 6 户 参 与 13.854 9 
>< 机 构 知 识 库 14.227 4 在 线 评论 15.015 国家 安全 14. 562 @ 类 ”社会 网 络 分 析 9.702 49 ”图 类 竞争 情报 12. 990 8 
(Ouiwk 据 开 放 。 14.082 1 户 行为 14.739 3 科学 数据 14.445 8 文献 计量 8.225 22 信息 生态 系统 ” 12. 967 2 
CC 服务 平台 13:721 1 信息 消费 14.534 2 科研 数据 14.058 2 跨 学 科 7.764 31 ”@ 类 11.7407 
meee 管理 模式 13.680 7 技术 接受 模型 。 14.474 元 数据 14.035 1 研究 主题 6.948 23 供应 链 11.503 1 
,人 一 公共 服务 13.444 2 L 根 理论 14. 25 科研 数据 管理 。 13.587 8 相关 文献 5.914 08 应 急 决 策 11.293 6 
文献 分 析 13.1648 APP 14.2019 ”@ 类 Altmetrics 11. 486 4.941 21 人 工 智能 8.263 25 
所 个 人 信息 12.746 意见 领袖 13.6318 智库 建设 10.640 2 2.200 16 信息 组 织 8.172 58 
@ 类 开放 数据 12.7316 社交 网 络 13.5211 学 术 交 流 9.846 26 1.285 82 生态 学 6.999 44 
智慧 城市 11.156 移动 阅读 13.437 9 学 科 交 又 8.844 16 可 视 化 分 析 0.899 41 应 急 管理 6.855 9 
馆藏 资源 10.0902 ”图 类 ”知识 转移 12.872 2 开放 获取 7.924 02 知识 图 谱 0.291 知识 元 6.1797 
电子 商务 9.958 53 ”图 类 ”移动 互联 网 12.333 9 学 术 影响 力 7.678 34 UGC 4.962 62 
9.567 53 新 浪 微 博 12.1645 科研 机 构 5.811 61 服务 质量 4.511 01 
7.955 24 结构 方程 模型 ” 10. 814 3 评价 方法 5.729 89 突 发 事件 2.754 21 
7.226 85 关键 因素 10.089 9 评价 指标 3.377 65 指标 权重 1.749 24 
4. 880 94 社交 媒体 7.663 47 情报 研究 2.552 44 信息 环境 0.585 51 
4.620 84 消费 者 6.4759 评价 体系 1.962 61 
2.939 5 理论 模型 5.481 76 
2.554 42 概念 模型 3.889 16 
4.5.1 排序 结果 合理 性 分 析 下 面 仅 以 "Topic5 也 : 开 的 需求 由 信息 服务 逐渐 转向 知识 服务 。 可 见 , 将 该 子 


类 主题 设置 为 最 高 研究 级 别 是 合理 的 ,可 以 指导 相关 
机 构 和 部 门 采取 一 定 的 措施 加 大 对 这 两 个 子 方向 研究 
的 扶持 力度 ,以 满足 人 们 对 该 子 类 研究 主题 日 益 剧 增 
的 需求 。 

第 @ 子 类 包含 的 主题 词 主要 研究 的 是 推荐 系统 、 
云 计算 移动 服务 ,政府 开放 数据 等 问题 。 在 互联 网 技 
术 ,移动 技术 、 物 联网 技术 迅速 发 展 和 广泛 普及 的 信息 
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环境 下 ,图 书 情报 学 界 高 度 重视 数据 开放 及 其 应 用 平 
台 的 建设 ,注重 移动 终端 在 信息 服务 中 的 地 位 ,这 与 上 
述 主题 词 对 应 的 发 文 量 和 引文 量 都 逐年 递增 不 谋 而 
合 。 但 如 果 一 个 学 科 领 域 过 多 地 关注 某 个 研究 方向 ， 
则 不 利于 学 科 的 均衡 发 展 。 因 此 ,设置 此 子 类 研究 主 
题 的 研究 级 别 低 于 第 中 子 类 ,以 提醒 研究 人 员 ,对 此 类 
研究 主题 应 头脑 冷静 ,谨防 出 现 研 究 过 热 现 象 。 


的 主题 。 对 此 子 类 主题 ,相关 机 构 部 门 (如 项 目 审批 机 
构 .图 书 情报 学 学 术 期 刊 ) 应 采取 相应 措施 适当 控制 这 
部 分 主题 的 研究 量 , 故 将 该 子 类 主题 的 研究 等 级 设置 
为 最 低 等 级 。 

4.5.2 对 比试 验 分 析 “为 方便 对 比 , 本 文 利 用 同一 数 
据 集 进 行 基于 共 词 聚 类 分 析 的 主题 词 排序 , 即 通过 共 
词 分 析 、 共 词 取 类 、 社 会 网 络 分 析 等 过 程 将 主题 词 排 


第 @ 子 类 仅 有 一 个 主题 词 , 即 个 人 信息 ,其 发 广 
量 .引文 量 都 逐年 北 碱 。 虽然 在 网 络 信息 时 代 , 人们 更 
加 关注 网 络 信息 安全 和 用 户 隐私 保护 ,但 由 于 图 书 情 
报 学 不 像 其 他 学 科 ( 如 计算 机 学 科 ) 涉及 更 多 的 隐私 
安全 问题 ,因此 ,该 子 类 主题 成 为 图 书 情报 学 的 研究 准 
点 ,研究 级 别 不 高 自在 情理 之 中 。 

一 第 @ 子 类 的 主题 词 代表 的 研究 方向 主要 是 数据 化 
资源 。 资 源 管理 与 建设 一 直 是 图 书 情报 学 研究 的 热 
总 也 是 该 学 科 领 域 最 擅长 的 研究 方向 。 在 数字 化 时 
代 次 源 的 数字 化 研究 ( 如 信息 资源 的 数字 化 ,资源 组 
级 与 管理 的 数字 化 .资源 利用 的 数字 化 等 ) 一 时 间 成 为 
图 书 情报 学 领域 炙手可热 的 研究 方向 ,属于 研究 过 热 
| ns 表 2 


名 


topiclth : topic2th : 


序 。 

具体 过 程 是 :将 上 述 10 种 期 刊 的 题 录 信息 (包括 
关键 词 ) 导 入 bicomb 中 ,提取 每 一 篇 文献 的 关键 词 , 通 
过 合并 \ 删 减 等 规范 化 处 理 后 , 共 得 到 27 057 个 关键 
词 。 选 取出 现 频次 大 于 等 于 20 次 的 244 个 高 频 关键 
词 生 成 共 词 矩阵 ,通过 相关 性 分 析 得 到 244 个 关键 词 
的 相似 性 和 矩阵。 最 后 将 共 词 矩阵 分 别 导 人 到 Vosviewer 
中 进行 社会 网 络 分 析 。 为 方便 对 比 ,输入 主题 数 为 
10 ,即将 244 个 关键 词 分 为 10 类 ,根据 Vosviwer 中 关 
键 词 weight 值 的 不 同 对 每 一 个 类 别 下 的 关键 词 进行 类 
内 排序 ,如 表 2 所 示 : 


Fa 


基于 共 词 聚 类 分 析 的 情报 学 领域 不 同 主题 词 的 优先 级 排序 ( 部 分 ) 


topic3th : topic4th : 


weight 值 网 络 奥 情 weight 值 文献 计量 weight 值 专利 信息 weight 值 政府 开放 数据 weight 值 
870 网 络 与 情 512 知识 图 谱 692 专利 分 析 338 放 数 据 114 
228 微 博 432 文献 计量 670 竞争 情报 284 政府 数据 94 
144 突 发 事件 268 可 视 化 分 析 658 数据 挖掘 242 信息 平台 64 
100 信息 传播 146 社会 网 络 分 析 590 社会 网 络 196 政府 数据 开放 54 
76 系统 动力 学 132 共 词 分 析 522 因子 分 析 148 信息 公开 48 
74 复杂 网 络 130 聚 类 分 析 376 文本 挖掘 124 公共 服务 46 

i 务 weight 值 ee weight 值 0 | weight 值 weight 值 de weight 值 
《 绒 字 图 书馆 330 电子 政务 198 知识 管理 266 信息 服务 294 科学 数据 170 
知识 服务 310 社交 媒体 132 知识 共享 246 微 信 176 机 构 知 识 库 144 
本 体 270 政府 信息 公 76 社交 网 络 148 学 科 服务 166 数据 管理 138 
关联 数据 186 绩效 评估 72 社会 化 媒体 124 图 书馆 服务 158 数据 共享 118 
知识 发 现 144 信息 质量 56 虚拟 社区 122 移动 图 书馆 150 放 获 取 96 
信息 检索 124 信息 推荐 56 电子 商务 102 言 息 行为 132 元 数据 96 

性 ,致使 获取 的 主题 不 客观 .不 完整 ;而 A 方法 是 利用 


为 便于 表述 ,将 本 文 提出 的 基于 趋势 分 析 的 排序 
方法 称 为 A 方法 ,将 基于 共 词 聚 类 分 析 的 排序 方法 称 
为 B 方 法 。 由 于 A.\B 两 种 排序 方法 的 理论 基础 不 同 ， 
所 以 两 者 排序 结果 存在 较 大 的 差异 性 ,表现 在 :各 主题 
内 主题 词 不 同 .主题 词 数量 不 同 .主题 标签 不 同 、 类 内 
层次 不 同等 。 

对 比 发 现 , 相 对 B 方法 ,A 方法 具有 以 下 明显 优势 : 

(1) 理 论 基础 的 优势 。B 方法 是 基于 统计 的 方法 
获得 学 科 领 域 的 高 频 词 ,忽视 了 出 现在 长 尾 位 置 的 大 
量 低频 词 和 新 兴 主 题词 ,方法 本 身 带 有 主观 性 \ 不 完整 


基于 概率 推理 的 LDA 模型 进行 主题 提取 ,模型 具有 严 
密 的 数学 理论 基础 ,因此 ,提取 的 研究 主题 更 全 面 、 更 
可 靠 。B 方法 虽然 综合 应 用 了 共 词 分 析 、 聚 类 分 析 与 
社会 网 络 分 析 多 种 方法 ,但 仅 是 从 研究 内 容 的 角度 考 
虑 了 研究 者 的 研究 趋势 ,未 考虑 读者 对 文献 的 需求 ;而 
A 方法 通过 发 文 和 引文 两 个 维度 探析 学 科 主 题 的 研究 
趋势 和 需求 趋势 ,进而 分 析 学 科 主 题 的 研究 与 利用 热 
度 ,是 文献 内 容 分 析 与 引文 分 析 的 有 效 融 合 。 

(2) 聚 类 层次 的 优势 。B 方法 仅 是 在 研究 内 容 单 
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一 层面 上 将 主题 进行 了 聚 类 ;而 A 方法 对 研究 主题 的 
聚 类 不 仅 对 学 科 主 题 进 行 了 研究 内 容 上 的 区 分 ,还 对 
各 研究 主题 进行 了 更 细 粒 度 的 研究 优先 级 划分 , 即 在 
研究 主题 内 容 划分 的 基础 上 ,又 进一步 将 每 一 个 研究 
主题 细 分 为 研究 贫乏 点 .研究 热点 .研究 冷 点 .研究 过 
热点 4 个 等 级 (部 分 主题 被 分 为 3 个 等 级 ) ,是 在 研究 内 
容 和 研究 等 级 两 个 层面 上 的 聚 类 , 聚 类 效果 更 加 精细 。 

(3) 排 序 结果 的 对 比 。B 方法 呈现 的 是 对 研究 主 
题 研究 热度 的 排序 , 仅 能 向 读者 呈现 学 科 领 域 的 研究 
热点 ,给 出 学 科 领 域 研究 发 展 的 趋势 这 一 种 信息 ,如 表 
2 中 每 个 主题 下 排名 靠 前 的 就 是 该 主题 的 研究 热点 ; 
而 A 方法 既 能 展示 学 科研 究 热点 .研究 过 热点 等 ,如 表 
1 中 第 @ 类 属于 研究 热点 ,第 @ 属 于 研究 过 热点 ;还 能 
给 出 学 科 主 题 的 研究 等 级 ,如 表 1 中 每 个 主题 中 值 越 
的 主题 词 研究 等 级 越 高 。 可 见 A 方法 给 出 的 信息 更 
(4) 聚 类 性 质 的 优势 。B 方法 属于 硬 聚 类 , 即 一 个 
三 词 仅 出 现在 一 类 主题 中 ;A 方法 属于 软 聚 类 ,一 个 
关键 词 可 以 出 现在 不 同类 中 ,比如 “资源 聚合 " 既 属于 
“fepic3 了 h: 网 络 资源 "的 研究 内 容 , 也 是 “topic5 耻 :开放 
效 所 "的 研究 范畴 ,该 方法 与 关键 词 内容 指 向 的 多 样 性 
是 殖 致 的 ,因此 , 软 聚 类 的 聚 类 结果 更 合理 。 


5 ”研究 贡献 


< 本 研究 的 主要 贡献 在 于 : 

忆 (1) 给 出 相对 引文 量 ,发 文 趋势 .引文 趋势 的 定 
义 壹 相对 引文 量 考虑 了 发 文 量 对 引文 量 的 影响 ,突破 
了 蚀 纯 从 引文 量 看 研究 主题 发 展现 状 的 局 限 性 ,能 够 
客观 地 呈现 学 科 领 域 研究 主题 的 发 展 趋势 。 发 文 趋势 
反映 了 学 科 主 题 的 研究 现状 ,引文 趋势 反映 了 研究 主 
题 被 关注 的 程度 ,两 者 结合 ,能 从 研究 者 和 读者 两 个 不 
同 视角 分 析 研 究 主题 的 发 展 态 势 。 

(2) 给 出 研究 主题 优先 级 排序 方法 。 本 文 的 排序 
方法 突破 了 “对 所 有 研究 主题 进行 统一 排序 ”的 思路 。 
首先 ,根据 发 文 趋势 和 引文 趋势 分 别 将 不 同 的 研究 主 
题 分 为 4 类 研究 等 级 ,然后 ,根据 给 出 的 排序 算法 对 4 
类 等 级 下 的 主题 词 进行 排序 。 这 样 不 仅 能 够 细致 地 展 
示 学 科 领 域 研究 主题 的 全 貌 ,更 能 具体 呈现 学 科 领 域 
研究 主题 被 研究 和 被 关注 的 程度 。 

(3) 对 我 国情 报 学 研究 主题 进行 了 研究 优先 级 划 
分 。 通 过 计算 主题 相似 度 将 情报 学 研究 主题 分 为 10 
个 ,利用 提出 的 研究 主题 优先 级 排序 法 将 其 研究 主题 
划分 为 贫乏 主题 ,热点 主题 , 冷 点 主题 .过 热 主题 4 类 
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等 级 ,并 在 子 主题 划分 的 基础 上 对 10 个 人 研究 主题 进行 
了 研究 优先 级 排序 。 人 研究 结果 可 为 本 学 科 科 研 机 构 制 
定 科 研 规划 、 科 研 人 员 确 定 科 人 研 方向 提供 有 效 、 可 靠 的 
决策 参考 。 


本 文 是 对 学 科 领 域 研究 主题 优先 级 排序 的 一 次 尝 
试 性 研究 ,排序 算法 本 身 仍 有 一 定 的 局 限 性 ;研究 结果 
的 检验 问题 也 没有 得 到 很 好 的 解决 , 沿 需 进一步 探讨 。 

(1) 在 任何 一 个 学 科 领 域 中 ,由 于 研究 者 的 研究 
局 好 可 能 发 生 转移 ,读者 数量 也 会 发 生变 化 ,各 研究 主 
题 的 发 文 量 和 读者 对 研究 主题 的 需求 量 都 会 发 生 一 定 
的 增 减 ,发 文 趋势 和 引文 趋势 也 会 随 之 发 生 相 应 的 改 
变 ;而 且 , 随 着 学 科 自 身 的 不 断 发 展 和 学 科 交 流 愈 加 频 
繁 ,还 会 有 新 的 研究 主题 不 断 呈 现 , 上 述 诸 多 因素 均 会 
影响 学 科 领 域 研究 主题 的 排序 结果 。 因 此 ,对 学 科 领 
域 研究 主题 的 排序 研究 应 是 一 个 持续 性 的 过 程 ,本 文 
给 出 的 排序 方法 仅 能 向 相关 部 门 和 研究 者 展示 当前 的 
研究 态势 , 仅 能 为 近期 的 科研 选 题 提供 参考 。 

(2) 本 文 的 主题 词 优先 级 排序 算法 , 即 公 式 (6) 是 
在 本 研究 数据 集 上 给 出 的 ,应 用 时 还 需 根据 具体 的 数 
据 特点 ,自行 定义 。 

(3) 由 于 目前 没有 公认 的 学 科 主 题 排序 的 验证 方 
法 ,更 未 发 现 有 对 我 国情 报 学 研究 主题 的 排序 研究 ,本 
研究 只 是 通过 对 同一 组 数据 集 进行 共 词 聚 类 分 析 ,在 
理论 基础 . 聚 类 性 质 、 聚 类 层次 .排序 结果 等 方面 与 本 
文学 科 主 题 优先 级 排序 法 进行 了 比较 ,在 对 比分 析 中 
突显 本 文 排序 方法 的 优势 ,但 排序 结果 与 专家 的 判断 
是 否 一 致 本 文 并 未 给 予 合理 的 验证 。 
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Abstract: [Purpose/significance | Topic sorting is not only the basic problem for information retrieval and informa- 


tion organization, but also an important work of subject service. The effective sorting of subject field research topics can 


help researchers and decision -making departments to grasp the research situation of the subject field effectively, locate the 


direction of scientific research accurately and make scientific research decisions quickly. 


[| Method/process | This paper 


proposes the prioritization algorithm based on the combination of topic extraction and trend analysis. Then it takes the re- 


search topics of Library and Information Science as an example to extract the research topics of the sample literature, and 


each research topic is divided into four sub -topics : poor theme, hot topic, cold point theme, and overheated topic. Next 


priority ranking is carried out in subclasses. | Result/conclusion | The empirical results show that the priority ranking al- 


gorithm can display the development level of research topics in an all round , fine -grained and deep way. This method pro- 


vides a new perspective for realizing dynamic intelligence analysis from time dimension. 


Keywords: writing trend citation trend 


research topic 
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